در این مقاله به
تکنولوژیهای مربوط به فناوری صوتی میپردازیم و اینکه چگونه فرامین صوتی،
دنیای محاسبات کامپیوتری را متحول خواهند کرد.
به گزارش سافت گذر و به نقل اززومیت؛آرتور سی. کلارک نویسنده بریتانیایی
داستانهای علمی-تخیلی میگوید: «هر فناوری پیشرفتهای، غیر قابل تشخیص
از سحر و جادو است» و تکنولوژیهای در حال ظهورِ مبتنی بر صوت، صحت این
گفته را اثبات میکنند، تکنولوژیهایی که دادههای ورودی آنها فقط هجی کردن کلمات است؛ چند واژه میگویید و نزدیکترین دستگاه آرزوی شما را برآورده میکند.
Echo نام محصولی از شرکت آمازون، یک اسپیکر هوشمند استوانهای است که بر اساس دستیار صوتی الکسا کنترل
میشود و امکاناتی مانند اطلاعات مربوط به موسیقی، اخبار، آب و هوا، گفتن
لطیفه، پاسخ به سؤالات روزمره، کنترل دستگاههای هوشمند و هر مورد دیگری را
که از آن بخواهید در اختیارتان قرار میدهد، حتی اطلاعات بهدستآمده نشان
میدهند که تا پایان سال ۲۰۱۶، حدود ۴ درصد از خانوادههای آمریکایی از
اکو استفاده میکردند.
دستیار صوتی بیش از پیش در حال گسترش روی گوشیهای هوشمند است؛ دستیار صوتی siri، بیش از ۲ میلیارد دستور در هفته اجرا میکند و ۲۰ درصد از جستجوهای گوگل در ایالات متحده، از طریق دستیار صوتی گوشیهای هوشمند اندروید صورت میگیرد.
از
طرفی، نگارش ایمیل و پیامهای متنی با دستیار صوتی بسیار مورد توجه قرار
گرفتند؛ خصوصا اینکه در زمان قدم زدن یا دویدن بهراحتی میتوانید از
قابلیت ارسال پیام با دستیار صوتی بهرهمند شوید.
استفاده
از این فناوری هرچند ساده به نظر میرسد اما یک اتفاق بزرگ است. ولی صدا
این قدرت را دارد تا تبدیل به محاسبه شود و به یک ابزار طبیعی تعاملی تبدیل
شود. شاید توانایی صحبت کردن با کامپیوترها، نیاز به یک رابط کاربری را
از بین ببرد؛ همانطور که تلفنهای همراه پس از تلفنهای ثابت و ماشینها
بعد از کالسکهها به وجود آمدند، بنابراین کامپیوتر بدون صفحه نمایش و
صفحه کلید، پتانسیل بیشتری دارد تا مورد توجه بیشتر قرار گیرد.
اما
صدا کاملا جایگزین تمامی اشکال ورود و خروج داده نخواهد شد. برخی اوقات
ممکن است تایپ کردن راحتتر از صحبت کردن باشد. اخیرا آمازون اعلام کرده که
در حال کار روی دستگاه Echo جهت تعبیه صفحه نمایش است.
یادگیری عمیق چیست؟
کامپیوترهای جدید توانایی تشخیص واژههای صوتی را بهصورت دقیق و بدون آموزش دارند که این یکی از قابلیتها بارز «یادگیری عمیق» است،
در این روش از طریق تکنیک هوش مصنوعی، یک سیستم نرمافزاری آموزش میبیند
که فرمانهای صوتی را درک کند. این کار با استفاده از میلیونها مثالی صورت
میگیرد که در اختیار نرمافزار قرار داده شده است .
با بهرهمندی
از تکنیک آموزش عمیق، ماشینها از لحاظ درک کلمات تقریبا با انسانها برابر
میشوند. اگرچه یادگیری عمیق به این معنی است که ماشینها میتوانند
گفتههای قابلاطمینانتر را تشخیص بدهند و با آب و تاب کمتری صحبت کنند،
اما آنها هنوز مفاهیم زبانی را درک نمیکنند.
کامپیوترها باید قادر باشند به مکالمات پیچیده و منسجم پاسخ دهند و محدود به کلمات ساده نباشند؛ مانند دستیار صوتی سیری، کورتانا،
الکسا و گوگل ناو که فقط یک سری دستورات محدود و مشخص را پاسخ میدهند.
اما سیستمهای ترجمه کامپیوتری بهسرعت در حال بهبود هستند. محققان در
دانشگاهها و شرکتهای بزرگ و کوچک در حال کار روی رفع این مشکل هستند،
ساخت رباتهایی که میتواند مکالمات مفصلتر را در مورد کارهای پیچیده
مانند بازیابی اطلاعات تا مشاوره در وامهای مسکن و فراهم آوردن ترتیب یک
سفر انجام دهد. اخیرا آمازون برای ساخت رباتی که بتواند به مدت ۲۰ دقیقه
بهصورت منسجم صحبت کند، جایزه یک میلیون دلاری در نظر گرفته است.
مصرفکنندگان
و سازندگان نقش مهمی در توسعه محاسبات صوتی، حتی به شکل کاملا ابتدایی آن
دارند. سیستمهای صدا محور زمانی که شخصیسازی شوند، بسیار مفیدتر خواهند
بود؛ چون زمانی که به نرمافزار دسترسی گستردهای به منابع شخصی مانند
تقویمها، ایمیلها و دیگر اطلاعات حساس داده شود، نگرانی بابت حفظ حریم
خصوصی و امنیت از بین میرود. از طرفی بعضی مردم در مورد پیامدهای
میکروفونهای متصل به اینترنت در گوشیهای هوشمند نگران هستند. اما این
مشکل تا حدودی حل شده است، یعنی تا زمانی که دستیار صوتی فراخوانی نشود،
دستورات صوتی هم قابل اجرا نخواهد بود. مثلا برخی دستگاهها منتظر عبارتی
هستند تا از آن طریق دستیار صوتی فعال و سپس درخواست کاربر اعمال شود؛ به
این منظور، برای دستگاههای مجهز به کورتانا عبارت «Hey, Cortana» برای
دستگاههای مجهز به سیری «Hey, Siri» و به همین ترتیب برای الکسا و گوگل
«Alexa» و «OK, google» به کار میرود.
اخیرا، پلیس آمریکا به قتلی
در آرکانزاس رسیدگی میکرد که ممکن بود اتفاقات حادثه توسط آمازون اکو
شنیده شده باشد، بنابراین پلیس از شرکت آمازون خواست دسترسی به تمامی
صداهای ضبطشده صورت گیرد؛ اما آمازون با این استدلال که طرفدار حفظ حریم
خصوصی است، از این اقدام خودداری کرد که نهایتا وضعیت حقوقی چنین درخواستی
هنوز نامشخص است. وضعیت مشابه برای اپل در
سال ۲۰۱۶ اتفاق افتاد که FBI از اپل خواست قفل گوشی آیفون یک تروریست را
باز کند. هر دوی این موارد نیاز به قوانینی دارند که مشخص کند رسوخ به حریم
خصوصی چه زمانی در جهت حفظ منافع ملی قابل توجیه است.
محاسبات صوتی
آنقدر مورد اقبال واقع شد که مصرفکنندگان آن را حتی اگر مسائل حلنشدهای
وجود داشته باشد، به کار میگیرند. در بسیاری موارد، صدا بهمراتب راحتتر
و طبیعیتر از هر وسیله ارتباطی دیگری است. بهطور خاص، صدا میتواند حین
انجام کارهایی مثل رانندگی، ورزش یا قدم زدن مؤثرتر واقع شود. همچنین این
تکنولوژی میتواند برای افراد معلول مفید باشد و ترجمه همزمان مکالمات
خارجی برای خیلی از افراد جذاب به نظر میرسد.
ورود علم به صفحه نمایش لمسی آخرین تغییر بزرگ در راه تعامل انسان با رایانه است، اما تعامل کلامی بهمراتب بزرگتر خواهد بود.